{
 "cells": [
  {
   "cell_type": "markdown",
   "id": "c5127a21-b43a-4fc5-8380-55c0f93f5433",
   "metadata": {},
   "source": [
    "## mtcars\n",
    "\n",
    "在R语言里，`mtcars` 是一个内置的经典数据集，常用于教学、数据分析和可视化示例。以下为你详细介绍 `mtcars` 数据集：\n",
    "\n",
    "**数据集来源**\n",
    "\n",
    "`mtcars` 数据集源自1974年《Motor Trend》杂志，记录了32款不同汽车（1973 - 1974年款）的各种性能指标数据。这些数据涵盖了汽车的多个方面，为研究汽车性能、探索变量之间的关系等提供了丰富的素材。\n",
    "\n",
    "**数据集结构**\n",
    "\n",
    "`mtcars` 是一个数据框（data frame），它有32行（代表32款不同的汽车）和11列（代表不同的汽车属性），各列含义如下：\n",
    "- **mpg**：每加仑汽油行驶的英里数，用于衡量汽车的燃油效率。数值越高，表明汽车越省油。\n",
    "- **cyl**：气缸数量，常见的有4缸、6缸、8缸等。一般来说，气缸数越多，发动机功率可能越大，但燃油消耗也可能更高。\n",
    "- **disp**：发动机排量，单位为立方英寸。排量通常反映了发动机的大小，排量越大，动力往往越强。\n",
    "- **hp**：发动机的马力，衡量发动机的功率大小。马力越大，汽车的加速性能和最高速度可能越好。\n",
    "- **drat**：后桥速比，它影响汽车的动力传递和燃油经济性。不同的后桥速比适用于不同的驾驶需求。\n",
    "- **wt**：汽车重量，单位为1000磅。较重的汽车通常需要更多的动力来驱动，可能会影响燃油效率和加速性能。\n",
    "- **qsec**：汽车在1/4英里加速所需的时间，用于衡量汽车的加速性能。时间越短，加速越快。\n",
    "- **vs**：发动机气缸排列形式，0表示V型发动机，1表示直列发动机。不同的气缸排列形式会影响发动机的性能和空间布局。\n",
    "- **am**：变速器类型，0表示自动变速器，1表示手动变速器。手动变速器通常能提供更多的驾驶操控乐趣，但自动变速器在城市驾驶中更方便。\n",
    "- **gear**：前进档的数量，常见的有3档、4档、5档等。更多的档位可以使发动机在不同的行驶条件下保持更合适的转速，提高燃油经济性和动力性能。\n",
    "- **carb**：化油器的数量，化油器用于将汽油和空气混合后送入发动机。化油器数量可能与发动机的功率输出有关。\n",
    "\n",
    "**数据查看与基本操作示例**\n",
    "\n",
    "```R\n",
    "# 查看数据集的基本信息\n",
    "str(mtcars)\n",
    "\n",
    "# 查看数据集行数和列数\n",
    "rows <- nrow(mtcars)\n",
    "columns <- ncol(mtcars)\n",
    "\n",
    "# 查看数据集行数和列数\n",
    "print(paste(\"数据集行数为\", rows))\n",
    "print(paste(\"数据集列数为\", columns))\n",
    "\n",
    "# 查看数据集行数和列数\n",
    "print(paste(\"数据集行数为\", rows))\n",
    "print(paste(\"数据集列数为\", columns))\n",
    "\n",
    "# 查看数据集前几行\n",
    "head(mtcars)\n",
    "\n",
    "# 计算每加仑英里数的均值\n",
    "mean_mpg <- mean(mtcars$mpg)\n",
    "print(paste(\"每加仑英里数的均值为\", mean_mpg))\n",
    "\n",
    "# 按照马力降序排序\n",
    "sorted_mtcars <- mtcars[order(-mtcars$hp), ]\n",
    "head(sorted_mtcars)\n",
    "```\n",
    "\n",
    "**数据分析与可视化示例**\n",
    "\n",
    "```R\n",
    "# 绘制每加仑英里数和汽车重量的散点图\n",
    "plot(mtcars$wt, mtcars$mpg, \n",
    "     main = \"汽车重量与每加仑英里数的关系\",\n",
    "     xlab = \"汽车重量（1000磅）\",\n",
    "     ylab = \"每加仑英里数\")\n",
    "\n",
    "# 拟合线性回归模型\n",
    "model <- lm(mpg ~ wt, data = mtcars)\n",
    "\n",
    "# 添加回归直线到散点图\n",
    "abline(model, col = \"red\")\n",
    "```\n",
    "在上述代码中，首先绘制了汽车重量和每加仑英里数的散点图，然后使用 `lm()` 函数拟合了一个线性回归模型，最后使用 `abline()` 函数将回归直线添加到散点图上，这样可以直观地观察两者之间的线性关系。 "
   ]
  },
  {
   "cell_type": "markdown",
   "id": "92ec0af1-b934-4a51-931f-fd88073fdb33",
   "metadata": {},
   "source": [
    "## UScrime\n",
    "\n",
    "`UScrime` 数据集来自R语言的 `MASS` 包，它包含了美国47个州在犯罪学研究方面的相关数据，用于分析影响犯罪率的因素。下面是该数据集中各字段的含义：\n",
    "\n",
    "**社会经济因素**\n",
    "\n",
    "1. **`M`**：该州年龄在14 - 24岁之间的男性占比。年轻人通常更易冲动，这个年龄段男性比例的变化可能会对犯罪率产生影响。\n",
    "2. **`So`**：表示该州是否位于南方（是为 1，否为 0）。不同地区的文化、经济发展水平、治安管理等情况存在差异，南方与非南方地区的犯罪率可能有所不同。\n",
    "3. **`Ed`**：该州居民的平均受教育年限。一般来说，受教育程度越高，人们的法律意识和道德观念可能越强，犯罪率可能相对较低。\n",
    "4. **`Po1`**：该州1960年每10万人口中的警察数量。警察数量的多少会影响对犯罪行为的监管和打击力度，从而影响犯罪率。\n",
    "5. **`Po2`**：该州1965年每10万人口中的警察数量。通过对比不同时间点的警察数量，可以分析警力投入的变化对犯罪率的影响。\n",
    "6. **`LF`**：该州年龄在14 - 24岁之间的男性劳动力参与率。较高的劳动力参与率意味着更多年轻人有工作和经济来源，可能降低犯罪的可能性。\n",
    "7. **`M.F`**：该州每1000名女性对应的男性数量。性别比例的失衡可能会对社会稳定和犯罪率产生一定影响。\n",
    "8. **`Pop`**：该州的人口数量。人口规模越大，社会环境越复杂，犯罪发生的概率可能相对较高。\n",
    "9. **`NW`**：该州非白种人的比例。不同种族在文化、经济地位等方面存在差异，可能与犯罪率存在关联。\n",
    "10. **`U1`**：该州14 - 24岁男性的失业率。失业率高意味着年轻人就业机会少，经济压力大，可能增加犯罪的风险。\n",
    "11. **`U2`**：该州35 - 39岁男性的失业率。不同年龄段的失业率对犯罪率的影响可能不同，中年人的失业率可能会影响家庭经济状况和社会稳定。\n",
    "12. **`Wealth`**：该州的人均财富。经济状况是影响犯罪率的重要因素之一，贫富差距可能导致犯罪行为的发生。\n",
    "13. **`Ineq`**：该州收入分配的不平等程度（用基尼系数衡量）。收入差距越大，社会矛盾可能越突出，犯罪率可能越高。\n",
    "14. **`Prob`**：该州被监禁的概率。较高的监禁概率可以起到一定的威慑作用，降低犯罪率。\n",
    "15. **`Time`**：该州在监狱中服刑的平均时间。服刑时间的长短也会对犯罪行为产生威慑效果。\n",
    "\n",
    "**犯罪率指标**\n",
    "\n",
    "- **`Crime`**：该州每10万人口中的犯罪数量，这是数据集中的目标变量，用于分析其他因素对犯罪率的影响。\n",
    "\n",
    "你可以通过以下代码加载并查看该数据集：\n",
    "```R\n",
    "# 加载 MASS 包\n",
    "library(MASS)\n",
    "# 加载 UScrime 数据集\n",
    "data(UScrime)\n",
    "# 查看数据集的基本信息\n",
    "str(UScrime)\n",
    "``` "
   ]
  },
  {
   "cell_type": "markdown",
   "id": "0890ac9f-6808-4884-9052-9682bace6bd0",
   "metadata": {},
   "source": [
    "## litter数据集\n",
    "\n",
    "\n",
    "- **`dose`**：数值型变量，表示给予母鼠的化学物质剂量。\n",
    "- **`gesttime`**：数值型变量，代表母鼠的妊娠期，以天为单位。\n",
    "- **`litter`**：因子型变量，用于区分不同的窝仔，每个水平对应一窝小鼠。\n",
    "- **`weight`**：数值型变量，指每窝小鼠出生时的平均体重。"
   ]
  },
  {
   "cell_type": "markdown",
   "id": "bbfbbdc7-7a1e-4410-9449-d8f615c7f954",
   "metadata": {},
   "source": [
    "## Affairs 数据集\n",
    "\n",
    "`AER` 包中的 `Affairs` 数据集是用于研究婚外情相关问题的，该数据集包含 601 个观测值和 9 个变量，各字段含义如下：\n",
    "\n",
    "**1. `affairs`**\n",
    "\n",
    "- **含义**：过去一年中婚外情的次数。这是一个数值型变量，代表了个体在过去一年里发生婚外情的具体次数。它是该数据集中用于衡量婚外情发生程度的核心指标。\n",
    "- **示例**：若某行记录中 `affairs` 的值为 3，表示该个体在过去一年中发生了 3 次婚外情。\n",
    "\n",
    "**2. `gender`**\n",
    "\n",
    "- **含义**：性别，分为男性（`\"male\"`）和女性（`\"female\"`）。这是一个分类变量，用于区分样本中的个体性别，有助于研究不同性别在婚外情行为上的差异。\n",
    "- **示例**：若某行记录中 `gender` 的值为 `\"male\"`，表示该个体为男性。\n",
    "\n",
    "**3. `age`**\n",
    "\n",
    "- **含义**：年龄，以岁为单位。它是一个数值型变量，不同的年龄阶段可能对婚外情的发生概率和频率产生影响，可用于分析年龄与婚外情之间的关系。\n",
    "- **示例**：若某行记录中 `age` 的值为 35，表示该个体的年龄是 35 岁。\n",
    "\n",
    "**4. `yearsmarried`**\n",
    "\n",
    "- **含义**：结婚的年数。这是一个数值型变量，反映了个体婚姻持续的时间长度，婚姻持续时间可能与婚外情的发生存在关联，例如长期婚姻可能面临不同的婚姻状况和挑战。\n",
    "- **示例**：若某行记录中 `yearsmarried` 的值为 10，表示该个体已经结婚 10 年。\n",
    "\n",
    "**5. `children`**\n",
    "\n",
    "- **含义**：是否有孩子，分为“是”（`\"yes\"`）和“否”（`\"no\"`）。这是一个分类变量，孩子的存在可能会对婚姻关系和婚外情行为产生影响，例如家庭责任的增加或减少等。\n",
    "- **示例**：若某行记录中 `children` 的值为 `\"yes\"`，表示该个体有孩子。\n",
    "\n",
    "**6. `religiousness`**\n",
    "\n",
    "- **含义**：宗教信仰程度，取值范围为 1 - 5，其中 1 表示“完全不”，5 表示“非常”。这是一个有序分类变量，用于衡量个体对宗教的信仰程度，宗教信仰可能会影响个体的道德观念和行为准则，进而影响婚外情的发生。\n",
    "- **示例**：若某行记录中 `religiousness` 的值为 3，表示该个体的宗教信仰程度为中等。\n",
    "\n",
    "**7. `education`**\n",
    "\n",
    "- **含义**：受教育程度，以年为单位。这是一个数值型变量，通常受教育程度可能与个体的价值观、社交圈子等因素相关，从而对婚外情行为产生影响。\n",
    "- **示例**：若某行记录中 `education` 的值为 16，表示该个体接受了 16 年的教育。\n",
    "\n",
    "**8. `occupation`**\n",
    "\n",
    "- **含义**：职业，按照霍林斯黑德社会地位指数（Hollingshead's social - status index）分为 1 - 7 类。这是一个有序分类变量，不同的职业可能具有不同的工作环境、社交机会等，这些因素可能与婚外情的发生相关。\n",
    "- **示例**：若某行记录中 `occupation` 的值为 4，表示该个体的职业属于霍林斯黑德社会地位指数分类中的第 4 类。\n",
    "\n",
    "**9. `rating`**\n",
    "\n",
    "- **含义**：对婚姻的自我评分，取值范围为 1 - 5，其中 1 表示“非常不幸福”，5 表示“非常幸福”。这是一个有序分类变量，反映了个体对自身婚姻状况的主观评价，婚姻满意度与婚外情的发生可能存在密切关系。\n",
    "- **示例**：若某行记录中 `rating` 的值为 2，表示该个体认为自己的婚姻“比较不幸福”。\n",
    "\n",
    "你可以在 R 中使用以下代码查看该数据集的描述信息：\n",
    "```R\n",
    "if (!require(AER)) {\n",
    "    install.packages(\"AER\")\n",
    "    library(AER)\n",
    "}\n",
    "data(\"Affairs\")\n",
    "help(\"Affairs\")\n",
    "```\n",
    "\n",
    "这段代码首先检查并安装 `AER` 包，然后加载 `Affairs` 数据集，最后使用 `help()` 函数查看数据集的详细文档，其中包含了各字段的含义和相关说明。 "
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "id": "b5187edc-587f-416d-bb26-4c25b5813e09",
   "metadata": {},
   "outputs": [],
   "source": []
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "R",
   "language": "R",
   "name": "ir"
  },
  "language_info": {
   "codemirror_mode": "r",
   "file_extension": ".r",
   "mimetype": "text/x-r-source",
   "name": "R",
   "pygments_lexer": "r",
   "version": "4.4.2"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 5
}
